arxiv：2411.16489v1 [cs.cl] 2024年11月25日__

arxiv：2411.16489v1 [cs.cl] 2024年11月25日

可下载资源数量

已经购买

下载数量：1

单价	0 1.0
Coupon	100% 0%
Total	0 1.0

点击下载点击购买并下载

点击购买，资源将自动在新窗口打开.

机构名称：

arxiv：2411.16489v1 [cs.cl] 2024年11月25日

¥ 1.0

热度

本文对当前复制Openai的O1模型功能的方法进行了批判性检查，特别关注广泛但通常未公开的知识蒸馏技术的使用。虽然我们以前的工作（第1部分（Qin等人，2024））探讨了O1复制的基本技术途径，这项研究揭示了O1的API的简单蒸馏，并结合了监督的微调，可以在复杂的数学推理任务上实现卓越的性能。通过广泛的实验，我们表明，基本模型对数万个样本O1延伸的长期思考链的微调优于美国邀请赛数学考试（AIME），其技术复杂性最少。此外，我们的调查范围超出了数学推理，可以探索跨不同任务的O1延伸模型的概括能力：幻觉，安全性和开放域QA。值得注意的是，尽管仅对数学解决问题的数据进行了培训，但我们的模型证明了对开放式质量QA任务的强烈概括，并且在微调后变得明显降低了对无粘液的影响。我们故意将这一发现公开以促进AI研究中的透明度，并挑战该领域中晦涩的技术主张的当前趋势。这种教育的命令不仅代表了技术考虑因素，而且代表了一个基本的人类使命，它将影响AI创新的未来。1相关资源将在https://github.com/gair-nlp/o1-journey上找到。我们的工作包括：（1）蒸馏过程及其有效性的详细技术阐述，（2）一个全面的基准测试框架，用于评估和分类O1复制尝试，基于其技术透明度和可重复性，（3）对痛苦的限制和潜在的限制，我们对痛苦的限制和潜在的风险进行了关键的讨论：我们的分析：crcial crcial crucial：crucial clucial clucial clucial clucial clucial clucial clucial clucial culminates''''''系统很重要，以第一原则思维为基础的研究人员的发展至关重要。

添加pdf代下载 VIP点击下载文件

arxiv：2411.16489v1 [cs.cl] 2024年11月25日

主要关键词

全面的公开的以前的工作包晦涩的可重复性任务功能的广泛的延伸的蒸馏模型的 crcial QA 微调质量复杂性安全性复制的监督的基本模型技术工作 crucial 技术途径基本的研究人员美国基础的数学开放式测试框架 O1 关键的复杂的潜在的进行研究重复性复制特别关注有效性透明度技术的模型 AI 基本 clucial

arxiv：2411.16489v1 [cs.cl] 2024年11月25日PDF文件第1页